Current technological advances open up new opportunities for bringing human-machine interaction to a new level of human-centered cooperation. In this context, a key issue is the semantic understanding of the environment in order to enable mobile robots more complex interactions and a facilitated communication with humans. Prerequisites are the vision-based registration of semantic objects and humans, where the latter are further analyzed for potential interaction partners. Despite significant research achievements, the reliable and fast registration of semantic information still remains a challenging task for mobile robots in real-world scenarios. In this paper, we present a vision-based system for mobile assistive robots to enable a semantic-aware environment perception without additional a-priori knowledge. We deploy our system on a mobile humanoid robot that enables us to test our methods in real-world applications.
translated by 谷歌翻译
A key component of fact verification is thevevidence retrieval, often from multiple documents. Recent approaches use dense representations and condition the retrieval of each document on the previously retrieved ones. The latter step is performed over all the documents in the collection, requiring storing their dense representations in an index, thus incurring a high memory footprint. An alternative paradigm is retrieve-and-rerank, where documents are retrieved using methods such as BM25, their sentences are reranked, and further documents are retrieved conditioned on these sentences, reducing the memory requirements. However, such approaches can be brittle as they rely on heuristics and assume hyperlinks between documents. We propose a novel retrieve-and-rerank method for multi-hop retrieval, that consists of a retriever that jointly scores documents in the knowledge source and sentences from previously retrieved documents using an autoregressive formulation and is guided by a proof system based on natural logic that dynamically terminates the retrieval process if the evidence is deemed sufficient. This method is competitive with current state-of-the-art methods on FEVER, HoVer and FEVEROUS-S, while using $5$ to $10$ times less memory than competing systems. Evaluation on an adversarial dataset indicates improved stability of our approach compared to commonly deployed threshold-based methods. Finally, the proof system helps humans predict model decisions correctly more often than using the evidence alone.
translated by 谷歌翻译
Summarizing novel chapters is a difficult task due to the input length and the fact that sentences that appear in the desired summaries draw content from multiple places throughout the chapter. We present a pipelined extractive-abstractive approach where the extractive step filters the content that is passed to the abstractive component. Extremely lengthy input also results in a highly skewed dataset towards negative instances for extractive summarization; we thus adopt a margin ranking loss for extraction to encourage separation between positive and negative examples. Our extraction component operates at the constituent level; our approach to this problem enriches the text with spinal tree information which provides syntactic context (in the form of constituents) to the extraction model. We show an improvement of 3.71 Rouge-1 points over best results reported in prior work on an existing novel chapter dataset.
translated by 谷歌翻译
本文通过将影响建模的任务视为强化学习(RL)过程,引入了范式转变。根据拟议的范式,RL代理通过尝试通过其环境(即背景)来最大化一组奖励(即行为和情感模式)来学习政策(即情感互动)。我们的假设是,RL是交织的有效范式影响引起和与行为和情感示威的表现。重要的是,我们对达马西奥的躯体标记假设的第二个假设建设是,情绪可以成为决策的促进者。我们通过训练Go-Blend Agents来对人类的唤醒和行为进行模型来检验赛车游戏中的假设; Go-Blend是Go-explore算法的修改版本,该版本最近在硬探索任务中展示了最高性能。我们首先改变了基于唤醒的奖励功能,并观察可以根据指定的奖励有效地显示情感和行为模式调色板的代理。然后,我们使用基于唤醒的状态选择机制来偏向Go-Blend探索的策略。我们的发现表明,Go-Blend不仅是有效的影响建模范式,而且更重要的是,情感驱动的RL改善了探索并产生更高的性能剂,从而验证了Damasio在游戏领域中的假设。
translated by 谷歌翻译
这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
得益于语音情绪识别(SER),计算机可以以情感智能的方式理解并与人互动。但是,可以显着改善SER在交叉和现实世界中的实时数据供稿方案中的性能。无法将现有模型调整到新域是SER方法的缺点之一。为了应对这一挑战,研究人员开发了域的适应技术,这些技术转移了模型在整个领域中学习的知识。尽管现有的域适应技术已经改善了跨域的性能,但可以改进它们以适应现实世界中的实时数据提要情况,在这种情况下,模型可以在部署时可以自动调整。在本文中,我们提出了一种基于强化的学习策略(RL-DA),用于在与环境互动并收集持续反馈的同时,将预训练的模型调整为现实世界中的实时数据供稿设置。 RL-DA对SER任务进行了评估,包括跨语言和跨语言域自适应模式。评估结果表明,在实时数据供稿设置中,RL-DA在跨科普斯和跨语言场景中的基线策略分别优于基线策略。
translated by 谷歌翻译
基于搜索的程序内容生成(PCG)是一种众所周知的方法,用于游戏中的水平生成。它的主要优势是它是通用且能够满足功能约束的能力。但是,由于在线运行这些算法的大量计算成本,因此很少将基于搜索的PCG用于实时生成。在本文中,我们使用机器学习介绍了一种新型的迭代级生成器。我们训练模型以模仿进化过程,并使用模型生成水平。该训练有素的模型能够顺序修改嘈杂的水平,以创建更好的水平,而无需在推理过程中使用健身函数。我们在2D迷宫生成任务上评估了训练有素的模型。我们比较了该方法的几个不同版本:在进化结束时训练模型或每100代(辅助进化),并在进化过程中使用模型作为突变函数。使用辅助进化过程,最终训练的模型能够以99%的成功率产生迷宫,高度多样性为86%。这项工作为以进化过程为指导的一种新的学习水平生成器打开了大门,并可能会增加游戏行业中基于搜索的PCG的采用。
translated by 谷歌翻译
牛la脚是一种严重的疾病,会影响奶牛的生命周期和生活质量,并导致巨大的经济损失。早期的la悔检测有助于农民尽早解决疾病,并避免牛的变性引起的负面影响。我们收集了一个简短的奶牛的数据集,穿过走廊,从走廊出发,并注释了牛的la行。本文探讨了结果数据集,并提供了数据收集过程的详细说明。此外,我们提出了一种la行检测方法,该方法利用预先训练的神经网络从视频中提取判别特征,并为每个母牛分配二进制分数,表明其状况:“健康”或“ la脚”。我们通过强迫模型专注于牛的结构来改善这种方法,我们通过用训练有素的分割模型预测的二进制分割掩码来代替RGB视频来实现。这项工作旨在鼓励研究并提供有关计算机视觉模型在农场上的牛lo脚检测的适用性的见解。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
我们研究了如何根据PlayTraces有效预测游戏角色。可以通过计算玩家与游戏行为的生成模型(所谓的程序角色)之间的动作协议比率来计算游戏角色。但这在计算上很昂贵,并假设很容易获得适当的程序性格。我们提出了两种用于估计玩家角色的方法,一种是使用定期监督的学习和启动游戏机制的汇总度量的方法,另一种是基于序列学习的序列学习的另一种方法。尽管这两种方法在预测与程序角色一致定义的游戏角色时都具有很高的精度,但它们完全无法预测玩家使用问卷的玩家本身定义的游戏风格。这个有趣的结果突出了使用计算方法定义游戏角色的价值。
translated by 谷歌翻译